Es posible hacer esto simplemente con bash.
El BORME es el Boletín Oficial de Registro Mercantil Español y contiene datos de empresas como estos:
Cambios de domicilio social.
Nombramientos.
Datos registrales.
Ceses y dimisiones.
Constitución. (Capital inicial y otros datos).
…
El problema del BORME es que tiene un buscador jodidamente malo. Puede que si se esforzasen más fuese más malo aún ya que parece pensado para que no lo puedas usar o no sea de utilidad. Es por esto que tiene sentido bajarse todos los PDF del BORME y convertirlos a txt.
En este post no vamos a publicar aún el script que convierte de pdf a txt ni el script que parsea los txt para meter los datos bien ordenados a una base de datos.
Este script es solamente para los que quieran bajarse los pdfs y guardarlos en algún lado. Nuestra finalidad es conseguir todos los datos en una base de datos mysql que nos permitan poder mirar de forma cómoda datos sobre empresas y empresarios. Esta base de datos nos va a permitir poder desarrollar otros posts futuros pero hasta que no la tengamos no vamos a poder arrojar ciertas cosas.
El script se ejecuta con bash y pide un parámetro. El parámetro es el año que quieres descargar.
bash nombrescript 2009
Vale que el script es muy feo y no esta indentado. No importa ya que funciona.
Cualquiera con ganas se pone con ello y lo puede dejar chulo, es decir, este baja secuencialmente. Se podría modificar y crearlo para bajar de 10 en 10 o cosas así.
¿Gana dinero la gente con estos datos públicos?
Si. Muchas empresas se dedican a parsear el BOE, el BORME y muchos otras fuentes de datos y los juntan. De este modo después te venden esos datos.
Nuestra finalidad es crear un buen parser que permita montar una web a cualquiera, es decir, crear lo que seria el motor que va generando una base de datos día a día (ejecutado con cron) y después que quien quiera monte si quiere una web con eso o una app para androide. Lo que gusten.
En nuestro caso tendremos nuestra versión para consola con la que podremos buscar a nivel personal esta info de forma sencilla. Hace unos días gracias a kenkeiras conseguimos la base de datos de todos los alcaldes y concejales de españa. Juntando esos nombres y buscando hits con esta otra base de datos quizás se pueda saber quienes (no a ciencia cierta) tienen empresas, que empresas, donde, desde cuando, …


El año 2009 ocupa:
du -h 2009/
1.6G 2009/